12 research outputs found

    Contributions in image and video coding

    Get PDF
    Orientador: Max Henrique Machado CostaTese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de ComputaçãoResumo: A comunidade de codificação de imagens e vídeo vem também trabalhando em inovações que vão além das tradicionais técnicas de codificação de imagens e vídeo. Este trabalho é um conjunto de contribuições a vários tópicos que têm recebido crescente interesse de pesquisadores na comunidade, nominalmente, codificação escalável, codificação de baixa complexidade para dispositivos móveis, codificação de vídeo de múltiplas vistas e codificação adaptativa em tempo real. A primeira contribuição estuda o desempenho de três transformadas 3-D rápidas por blocos em um codificador de vídeo de baixa complexidade. O codificador recebeu o nome de Fast Embedded Video Codec (FEVC). Novos métodos de implementação e ordens de varredura são propostos para as transformadas. Os coeficiente 3-D são codificados por planos de bits pelos codificadores de entropia, produzindo um fluxo de bits (bitstream) de saída totalmente embutida. Todas as implementações são feitas usando arquitetura com aritmética inteira de 16 bits. Somente adições e deslocamentos de bits são necessários, o que reduz a complexidade computacional. Mesmo com essas restrições, um bom desempenho em termos de taxa de bits versus distorção pôde ser obtido e os tempos de codificação são significativamente menores (em torno de 160 vezes) quando comparados ao padrão H.264/AVC. A segunda contribuição é a otimização de uma recente abordagem proposta para codificação de vídeo de múltiplas vistas em aplicações de video-conferência e outras aplicações do tipo "unicast" similares. O cenário alvo nessa abordagem é fornecer vídeo com percepção real em 3-D e ponto de vista livre a boas taxas de compressão. Para atingir tal objetivo, pesos são atribuídos a cada vista e mapeados em parâmetros de quantização. Neste trabalho, o mapeamento ad-hoc anteriormente proposto entre pesos e parâmetros de quantização é mostrado ser quase-ótimo para uma fonte Gaussiana e um mapeamento ótimo é derivado para fonte típicas de vídeo. A terceira contribuição explora várias estratégias para varredura adaptativa dos coeficientes da transformada no padrão JPEG XR. A ordem de varredura original, global e adaptativa do JPEG XR é comparada com os métodos de varredura localizados e híbridos propostos neste trabalho. Essas novas ordens não requerem mudanças nem nos outros estágios de codificação e decodificação, nem na definição da bitstream A quarta e última contribuição propõe uma transformada por blocos dependente do sinal. As transformadas hierárquicas usualmente exploram a informação residual entre os níveis no estágio da codificação de entropia, mas não no estágio da transformada. A transformada proposta neste trabalho é uma técnica de compactação de energia que também explora as similaridades estruturais entre os níveis de resolução. A idéia central da técnica é incluir na transformada hierárquica um número de funções de base adaptativas derivadas da resolução menor do sinal. Um codificador de imagens completo foi desenvolvido para medir o desempenho da nova transformada e os resultados obtidos são discutidos neste trabalhoAbstract: The image and video coding community has often been working on new advances that go beyond traditional image and video architectures. This work is a set of contributions to various topics that have received increasing attention from researchers in the community, namely, scalable coding, low-complexity coding for portable devices, multiview video coding and run-time adaptive coding. The first contribution studies the performance of three fast block-based 3-D transforms in a low complexity video codec. The codec has received the name Fast Embedded Video Codec (FEVC). New implementation methods and scanning orders are proposed for the transforms. The 3-D coefficients are encoded bit-plane by bit-plane by entropy coders, producing a fully embedded output bitstream. All implementation is performed using 16-bit integer arithmetic. Only additions and bit shifts are necessary, thus lowering computational complexity. Even with these constraints, reasonable rate versus distortion performance can be achieved and the encoding time is significantly smaller (around 160 times) when compared to the H.264/AVC standard. The second contribution is the optimization of a recent approach proposed for multiview video coding in videoconferencing applications or other similar unicast-like applications. The target scenario in this approach is providing realistic 3-D video with free viewpoint video at good compression rates. To achieve such an objective, weights are computed for each view and mapped into quantization parameters. In this work, the previously proposed ad-hoc mapping between weights and quantization parameters is shown to be quasi-optimum for a Gaussian source and an optimum mapping is derived for a typical video source. The third contribution exploits several strategies for adaptive scanning of transform coefficients in the JPEG XR standard. The original global adaptive scanning order applied in JPEG XR is compared with the localized and hybrid scanning methods proposed in this work. These new orders do not require changes in either the other coding and decoding stages or in the bitstream definition. The fourth and last contribution proposes an hierarchical signal dependent block-based transform. Hierarchical transforms usually exploit the residual cross-level information at the entropy coding step, but not at the transform step. The transform proposed in this work is an energy compaction technique that can also exploit these cross-resolution-level structural similarities. The core idea of the technique is to include in the hierarchical transform a number of adaptive basis functions derived from the lower resolution of the signal. A full image codec is developed in order to measure the performance of the new transform and the obtained results are discussed in this workDoutoradoTelecomunicações e TelemáticaDoutor em Engenharia Elétric

    UM SOM, UM SENTIMENTO

    Get PDF
    A música está presente em nosso mundo desde a pré-história. Ela está em todo lugar, nas escolas, no trabalho, na televisão, no supermercado, nas lojas de roupas. Pode possuir vários sons, batidas, sentidos, timbres, ritmos, letras distintas e gêneros devido ao fato de que cada um tem seus gostos e uma sensibilidade diferente diante dos sons emitidos pela música. Tendo isso em mente, nosso trabalho teve como finalidade mostrar como a música pode ser um meio de protesto, qual a sensação que os diferentes gêneros trazem nas pessoas e mostrar o quão importante ela é para a manifestação dos sentimentos dos indivíduos. Para conseguirmos os resultados que queríamos, utilizamos nossa criatividade para criar músicas que intriguem as pessoas, com letras de protesto e de sentimento. Nossa pesquisa, por sua vez, englobou a história da música, os gêneros musicais, o processo de criação da música e sua influência na sociedade. Nosso resultado foi uma música com clipe impactante, que representa situações de homens e mulheres espalhados pelo mundo, tendo como base a opressão da sociedade perante essas pessoas. Também expomos o processo de formação e elaboração da música, a influência na sociedade e a criação dos gêneros. Apresentaremos, dentro de dez minutos, a importância da música no contexto social na forma de apresentação oral, além disso, pretendemos apresentar os resultados práticos do projeto, os clipes, com o auxílio de um projetor e as músicas produzidas pelos integrantes do grupo como performance ao vivo. Concluímos esse trabalho entendendo que o ser humano utiliza a música como refúgio, que ela pode carregar sentimentos e, inclusive, mudar o humor, trazendo conteúdos e ideais que podem ser aceitos, ou não, pela sociedade. Palavras-chave: Música. Sentimento. Preconceito. Ser humano. Expressão. Sociedade.

    Video coding system based on three dimensional, fast and progressive transforms

    No full text
    Orientadores: Max Henrique Machado Costa, Leonardo de Souza MendesDissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de ComputaçãoResumo: As pesquisas na área de codificação de vídeo buscam técnicas que alcancem taxas de compressão cada vez mais altas. O aumento da compressão é obtido ao custo do aumento da complexidade dos algoritmos de codificação, que é suportado pelo também constante aumento da capacidade dos processadores. Entretanto, em alguns cenários de codificação e transmissão de vídeo, a utilização destes processadores de alta capacidade não é possível ou desejada. Isso exige o desenvolvimento de codificadores de vídeo focados na obtenção de tempos de processamento reduzido e na utilização de poucos recursos computacionais, tais como o sistema de codificação apresentado neste trabalho. Para o desenvolvimento deste sistema foi utilizada a transformada de Hadamard tridimensional implementada de forma otimizada e um codificador adaptativo de Golomb por planos de bits que acrescenta ao sistema a desejável característica de ser progressivo. A implementação do sistema é adaptada para realizar somente operações matemáticas rápidas e alocar pouca memória computacional. Mesmo com a utilização destas técnicas focadas em rapidez, foram obtidos bons resultados experimentais em termos da razão de sinal de pico por ruído em função da taxa de bits por pixelAbstract: The research on video coding systems has always been looking for techniques that can reach the highest possible compression rate. This compression rate increase is generally achieved by means of increased coding complexity, which is supported by the continuous increase verified in computational power. However, in some video coding and transmission situations, the use of high capacity processors is not possible or desirable. These situations require the development of video coders focused on the achievement of reduced execution times and on the requirement of few computational resources, just as the video coding system proposed in this dissertation. The proposed system uses three dimensional Hadamard transforms, implemented in an efficient way, and adaptive entropy coding with Golomb codes applied to bit planes, whichs adds to the system the desirable characteristic of being progressive. The computational system implementation is designed to perform only fast mathematical operations and to require small computational memory. Even with the use of these constrained techniques, good experimental results, in terms of peak signal to noise ratio (PSNR) versus pixel bit-rate were achieved.MestradoTelecomunicações e TelemáticaMestre em Engenharia Elétric

    IDENTIFICAÇÃO DA DEPENDÊNCIA FUNCIONAL E DO GRAU DE ASSISTÊNCIA DE CUIDADORES DE CRIANÇAS COM PARALISIA CEREBRAL ATENDIDAS NA UNIVALI

    Get PDF
    A paralisia cerebral (PC) pode ser descrita como um grupo de desordens permanentes do desenvolvimento e postura, atrelados a um distúrbio não progressivo que ocorre durante o desenvolvimento do cérebro imaturo. Famílias com crianças com PC apresentam uma demanda significantemente maior em relação a cuidados e despesas com tratamentos de saúde, sendo assim manter as atividades de vida diária e cuidar dessas crianças se torna cada vez mais difícil. Objetivo: Identificar o grau de dependência/independência da criança com paralisia cerebral e o grau de assistência exigido nas atividades de vida diária pelo cuidador. Metodologia: Trata-se de uma pesquisa quantitativa de caráter descritivo e transversal. Fizeram parte da amostra 12 crianças com PC e seus respectivos cuidadores. A coleta de dados foi realizada entre fevereiro e junho de 2016. Foram aplicadas a escala Gross Motor Function Measure (GMFM)  e a escala Pediatric Evaluation of Disability Inventory (PEDI). Os dados foram analisados por meio de uma análise por diagrama de dispersão e feita uma correlação linear de Pearson dos dados obtidos por meio das duas escalas. Resultados: A pesquisa demonstrou relação forte quanto ao grau de desempenho motor da criança e o nível de dependência motora na realização das atividades de vida diária, sendo comprovada por um valor de Pearson -0,71. Conclusão: Conclui-se que quanto maior o comprometimento motor, maior a dependência funcional da criança, refletindo diretamente na sobrecarga imposta ao cuidador

    Analysis Of The Physiotherapeutic Treatment For Cerebral Palsy Based On The Bobath Neurodevelopmental Treatment Through The Gmfm

    Get PDF
    INTRODUCTION: Cerebral palsy (CP) is characterized by postural, functional and tonus dysfunctions due to lesions in the Central Nervous System in the maturation phase. Physiotherapy inserts itself in the treatment of CP aiming to normalize dysfunctions, providing higher quality of life and autonomy. One of the most used methods for the treatment of these patients is the Bobath Neurodevelopmental Treatment (NDT). The prognosis and efficacy of treatment can be measured through instruments such as GMFM. OBJECTIVES: To evaluate the physiotherapeutic treatment based on NDT through the GMFM-88 scale in children with CP before and after intervention, quantitatively observing the evolution. METHODOLOGY: 8 patients were submitted to the GMFM scale before and after physiotherapeutic treatment. The treatment was carried out in the discipline of Pediatrics of a Community University. Quantitative data were tabulated and analyzed using simple descriptive statistics and GMAE-2 Software. RESULTS: A general evolution was observed in the neuropsychomotor development of patients or the maintenance of their condition. CONCLUSION: The results demonstrate that the physiotherapeutic treatment based on the Bobath Neurodevelopmental Treatment is effective for the evolution or maintenance of the gross motor function of the patients and that the GMFM instrument is effective in showing these results quantitatively. KEYWORDS: motor activity, cerebral palsy, proprioception, physiotherapy

    Video pornography detection through deep learning techniques and motion information

    No full text
    Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Recent literature has explored automated pornographic detection a bold move to replace humans in the tedious task of moderating online content. Unfortunately, on scenes with high skin exposure, such as people sunbathing and wrestling, the state of the art can have many false alarms. This paper is based on the premise that incorporating motion information in the models can alleviate the problem of mapping skin exposure to pornographic content, and advances the bar on automated pornography detection with the use of motion information and deep learning architectures. Deep Learning, especially in the form of Convolutional Neural Networks, have striking results on computer vision, but their potential for pornography detection is yet to be fully explored through the use of motion information. We propose novel ways for combining static (picture) and dynamic (motion) information using optical flow and MPEG motion vectors. We show that both methods provide equivalent accuracies, but that MPEG motion vectors allow a more efficient implementation. The best proposed method yields a classification accuracy of 97.9% an error reduction of 64.4% when compared to the state of the art on a dataset of 800 challenging test cases. Finally, we present and discuss results on a larger, and more challenging, dataset.Recent literature has explored automated pornographic detection – a bold move to replace humans in the tedious task of moderating online content. Unfortunately, on scenes with high skin exposure, such as people sunbathing and wrestling, the state of the a230279293CNPQ - CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICOFAPESP - FUNDAÇÃO DE AMPARO À PESQUISA DO ESTADO DE SÃO PAULOCAPES - COORDENAÇÃO DE APERFEIÇOAMENTO DE PESSOAL DE NÍVEL SUPERIORConselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)304472/2015-82015/19222-9sem informaçã

    Multimodal data fusion for sensitive scene localization

    No full text
    The very idea of hiring humans to avoid the indiscriminate spread of inappropriate sensitive content online (e.g., child pornography and violence) is daunting. The inherent data deluge and the tediousness of the task call for more adequate approaches, and set the stage for computer-aided methods. If running in the background, such methods could readily cut the stream flow at the very moment of inadequate content exhibition, being invaluable for protecting unwary spectators. Except for the particular case of violence detection, related work to sensitive video analysis has mostly focused on deciding whether or not a given stream is sensitive, leaving the localization task largely untapped. Identifying when a stream starts and ceases to display inappropriate content is key for live streams and video on demand. In this work, we propose a novel multimodal fusion approach to sensitive scene localization. The solution can be applied to diverse types of sensitive content, without the need for step modifications (general purpose). We leverage the multimodality data nature of videos (e.g., still frames, video space-time, audio stream, etc.) to effectively single out frames of interest. To validate the solution, we perform localization experiments on pornographic and violent video streams, two of the commonest types of sensitive content, and report quantitative and qualitative results. The results show, for instance, that the proposed method only misses about five minutes in every hour of streamed pornographic content. Finally, for the particular task of pornography localization, we also introduce the first frame-level annotated pornographic video dataset to date, which comprises 140 h of video, freely available for downloading45307323CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO - CNPQCOORDENAÇÃO DE APERFEIÇOAMENTO DE PESSOAL DE NÍVEL SUPERIOR - CAPESFUNDAÇÃO DE AMPARO À PESQUISA DO ESTADO DE SÃO PAULO - FAPESP477662/2013-7; 304472/2015-8Não tem2017/12646-3We thank the financial support of the Brazilian Council for Scientific and Technological Development – CNPq (Grants #477662/2013-7 and #304472/2015-8), the São Paulo Research Foundation – FAPESP (DéjàVu Grant #2017/12646-3), and the Coordination for the Improvement of Higher Level Education Personnel – CAPES (DeepEyes project). Finally, part of the results presented in this paper was obtained through the project “Sensitive Media Analysis”, sponsored by Samsung Eletrônica da Amazônia Ltda., in the framework of law No. 8248/9
    corecore